Elastic Machine Learning 基礎: 機器學習的名詞、相關流程與案例介紹 (21)

第 12 屆 iThome 鐵人賽

DAY 21

Elastic Stack on Cloud

12th鐵人賽 elastic cloud elastic stack

2727 瀏覽

這篇文章會介紹 Elastic Machine Learning 中的名詞、相關流程與案例介紹。

機器學習解決問題主要分兩種

機器學習使用的方法:

監督學習 (Supervised Learning): 輸入和輸出之間存在某一種關係或模式，要先把資料都進行標記，像是 "幾歲" 的 "女孩子" 購買 "名牌包" 比例最高
非監督學習 (Unsupervised Learning ): 不需要先進行標記，輸入數據，依據不同變量，找出相似或相關的群，傳統一定會上到的例子就是買尿布會順便買啤酒

資料:

Elastic Machine Learning 中的資料異常偵測是透過非監督學習來分類時間序列的資料，可以回答像是下面的問題

Elastic Machine Learning 異常偵測

現在的系統、網路架構越來越複雜，攻擊行為也越來越多樣，難以透過設定規則、資料標記來逐一處理，所以透過收集相關紀錄後分析也許是一個比較好的解決方式，網路安全主要蒐集以下資訊

SSH logs 可以透過 Filebeat 紀錄

DNS Traffic

Elastic Machine Learning 透過非監督學習來分類時間序列的資料後，其實可以大致分出項基本的決策樹

Elastic Machine Learning 異常行為決策樹

偵測異常的行為流程大致如下

異常行為偵測流程

使用上，需要先準備資料，資料部分則可以分析 Elasticsearch 中的或是額外透過 API 餵進來。

有資料後需要建立任務，任務可以透過 API 或是 Kibana UI 建立，一個機器學習任務包含配置資訊及所需的 Metadata，配置流程大致如下

Job Type
- Single Metric
- Multi Metric: 可以看成跑了好幾個 Single 的概念
- Advanced
- Population
設定 Data Feed: 提供 Elasticsearch 中時間序列資料
- Index Pattern
- Query
- Time Range
設定 buckets: buckets 是切割時間序列資料的單位，通常是五分鐘到一小時，設定太長會增加運算負擔也較難看出結果，建議依照資料型態決定，最後每個 bucket 都會得到計算後的分數

Bucket 中的最大值
設定 Detectors: 每個 Detector 會針對資料中的欄位套用一種分析函式，像是最大最小、平均、極端值，最大就會找出某個 bucket 中的最大
設定 Influencer: 建議設置但也不能設定太多，因為太多會增加閱讀難度
- 方便找兇手，像是如果可以從 IP 看出可疑活動就可以直接設定 IP
- 協助簡化、聚合結果資料
執行並查看 Job 結果
- Single Metric Viewer
- Anomaly Explorer
監看即時資料
- 排程
- Query
- Condition
- Action